Un processus multi-approches pour l'indexation de documents
نویسندگان
چکیده
This article presents an automatic method of indexing documents based on a semantic, linguistic and finally statistics approach. The semantic analysis is based on the annotation of the document to index by using the ontology of water domain’s. The linguistic process and statistics which succeed him are a sequential combination of the linguistic analysis of the document to be indexed by the extraction of the significant terms of the document and the statistical analysis is the decomposition in singular values of words composing the document. Here, weighting terms are set to take advantages of both their position compared to other terms (co-occurrence) and their local and global context. An application was developed in order to suggest assignments topics of documents to a referential. Finally, we will present experiments comparatives results (with or without semantic treatment) and evaluation carried out on documents of Suez-Environnement. MOTS-CLES : ontologie, indexation, linguistique, statistique
منابع مشابه
Évaluation des approches multi-apprenants pour l'indexation des concepts dans les documents vidéo
Les méthodes multi-apprenants avec sous-échantillonnage aléatoire inversé (IRUS) ont étét introduites par (Tahir et al., 2009). Ces approches ont été validées avec succès pour l’indexation multimédia mais avec un seul type de classifieur, la régréssion logistique, et un seul descripteur de type histogramme de SIFT. Dans ce travail, nous étudions cette approche avec d’autres types de classifieur...
متن کاملEtude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents
RÉSUMÉ. Dans cet article, nous comparons les résultats produits par différentes approches de résumé multi-documents. Nous opposons deux approches classiques à la nôtre qui place la modélisation de la diversité informationnelle du corpus au centre du processus. Nous évaluons également l’impact de différentes mesures de similarité entre phrases. Les expériences, menées sur le corpus RPM2, montren...
متن کاملClassification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information
RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...
متن کاملConception d'un outil d'aide à l'indexation de ressources pédagogiques - Extraction automatique des the?matiques et des mots-clefs de documents UNIT
RÉSUMÉ Le Learning Object Metadata (LOM) est le standard incontestable pour l’indexation des ressources pédagogiques. L'indexation de ces ressources en LOM est souvent accomplie manuellement par des documentalistes. Renseigner l’ensemble des champs du LOM d’un document est une tâche difficile et longue, nécessitant habituellement une lecture complète et une connaissance dans le domaine traité. ...
متن کاملApprentissage neuro-symbolique pour la RI coopérative, adaptative et évolutive : le modèle multi-agents SARCI
RÉSUMÉ. Dans cet article nous proposons un modèle pour un SRI qui prend en compte la complexité de la requête de l’utilisateur en proposant de la décomposer en différents points de vue. Nous proposons également de considérer les documents du corpus suivant des angles différents et des structures diverses. Pour prendre en compte le caractère évolutif des connaissances liées aux documents et aux ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2005